iT邦幫忙

2019 iT 邦幫忙鐵人賽

DAY 1
1
AI & Data

機器學習_資料採礦_透過數據協助決策_R語言系列 第 1

[Day 1] 前言 - 大數據的事前預測

  • 分享至 

  • xImage
  •  

有了數據,我要怎樣把Data(無意義的資料)變成Information(有意義的資訊)呢?我想這就是統計學了吧!

AI聽起來很沒方向,舉個例子來說,訓練電腦分辨這張圖片是一顆橘子還是蘋果,透過大量你事先告訴電腦的資訊(你給了電腦100張橘子跟蘋果的照片,現在你拿出第101張照片,電腦就能自動判斷他是什麼水果),那便是AI了。

把這樣的議題無限擴大,"魔球"一書就是闡述數據的強大。
丹.布朗在他最新的小說當中也提到,D-Wave的量子化大數據實踐甚至可以追本朔原到生命的起源。
阿基里德說給他一個支點他可以撐起地球,給電腦足夠的數據,就可以預知未來。

小弟出身統計,比起我現在在業界做的"事後驗證",我必須說我更傾向做"事前預測"。

因此,這塊領域其實不算我現在的工作領域,但希望透過參與鐵人賽,給自己一個動力,挑戰一下是否能用R語言做出更有質量的Data_Mining內容(也許會回頭使用懷卡托智能分析系統也不一定,不知道自己的R語言實力夠不夠寫出一個這樣的專案)。

會先以學生時代做過的資料(計程車營運狀況調查)作為資料集,蒐集了6879位計程車司機、有148個變數
資料來源:政府資料開放平臺(https://data.gov.tw/ )
計程車營運狀況調查(https://data.gov.tw/dataset/6252 )
有興趣的話,可以去下載資料更方便我們交流!(我是用106年的數據,一個檔案是變數名稱的意義,另外一個是數據本身,兩個都要下載)

資料來源的部分,當年老師希望我們可以引用政府的開放資料,因此我們找到了這個資料集,老實說這個資料集的內容挺髒的...,會先花一點時間進行資處。

理論的部分我也會盡量提,實踐的部分會比較多一些。

然後抱歉比較晚開始鐵人賽,花了滿多決心才決定參與的,希望自己能完賽囉!


下一篇
[Day 2] 政府開放資料_計程車營運狀況調查(資處篇-1)
系列文
機器學習_資料採礦_透過數據協助決策_R語言30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言